Blog


Gesetzgebung für KI – Was macht sie so schwierig? – Ein genauerer Blick auf den AI Act


Dr. Liel Glaser


Eine der größten Herausforderungen bei der Arbeit mit maschinellem Lernen und Künstlicher Intelligenz (KI) ist die Geschwindigkeit, mit der sich das Feld entwickelt. Täglich werden neue Artikel veröffentlicht und fast jede Woche entsteht ein neues Modell, das bestehende übertrifft. Es ist schwierig vorherzusagen, wo die nächste große Innovation entstehen wird und wie sie angewendet wird. Auch die EU stand bei der Ausarbeitung des AI Act vor dieser Herausforderung. Wie schreibt man ein nützliches Gesetz, das den Missbrauch von Technologien regelt, die noch gar nicht existieren? Um dies zu bewältigen, entschied sich die EU für eine umfassende Definition von KI, die sich auf eine technologieagnostische Beschreibung konzentriert. „KI-System“ bedeutet ein maschinenbasiertes System, das so konzipiert ist, dass es mit unterschiedlichen Autonomiestufen arbeitet und nach der Bereitstellung Anpassungsfähigkeit zeigen kann und das für explizite oder implizite Ziele aus den erhaltenen Eingaben ableitet, wie es Ausgaben wie Vorhersagen, Inhalte, Empfehlungen oder Entscheidungen generiert, die physische oder virtuelle Umgebungen beeinflussen können.“ (AI Act, Artikel 1, Absatz 1) In Teilen könnte dies auch auf Systeme angewendet werden, die bisher nicht als maschinelles Lernen oder KI betrachtet werden. Es sollte jedoch alle KI-Systeme abdecken. Eine breite Abdeckung ist in diesem Kontext wichtig, da KI bereits in vielen verschiedenen Bereichen eingesetzt wird. KI hat wahrscheinlich schon Auswirkungen auf alle europäischen Bürger und da wir den stochastischen Geist nicht wieder in die Flasche zurückbringen können, müssen wir Wege finden, unsere Wünsche sorgfältig zu bedenken. Haftungsausschluss: Dieser Artikel ist das Ergebnis eines tiefen Eintauchens eines ML-Wissenschaftlers in die EU-Regulierungen und versucht, diese zu interpretieren und zu verstehen. Er sollte nicht als rechtliche Beratung angesehen werden und alle Fehler gehen definitiv auf meine Kappe.
Alle Artikel anzeigen ->

XAI: Nichts ist sicher (mit einer Wahrscheinlichkeit)


Yana Chekan


Das „X“ , das kürzlich vor der bekannten Abkürzung AI (Künstliche Intelligenz) aufgetaucht ist, soll das Feld nicht revolutionieren, noch steht es für etwas Spezifisches über seine wörtliche Bedeutung hinaus. Vielmehr betont es den kritischen Aspekt der Erklärbarkeit. eXplainable Artificial Intelligence (XAI) entwickelt Methoden, um einige der langjährigen Probleme des Feldes anzugehen und gleichzeitig eine eigene Reihe von faszinierenden Forschungsfragen zu stellen. Warum XAI es wert ist, Ihre Aufmerksamkeit auf sich zu ziehen, finden Sie im folgenden Text.

Post-Feinabstimmung von LLMs mit Direkter Präferenzoptimierung


Thanh Long Phan


Nach der Veröffentlichung unseres vorherigen Blogs zum Reinforcement-Learning aus menschlichem Feedback (RLHF) wurde ein alternativer Algorithmus eingeführt, der nicht die Verwendung eines Belohnungsmodells erfordert, um große Sprachmodelle (LLMs) basierend auf menschlichen Präferenzen feinzutunen. Diese Methode wird als Direkte Präferenzoptimierung (DPO) bezeichnet und wurde in dem Paper "Direct Preference Optimization: Your Language Model is Secretly a Reward Model" vorgestellt, das eines der besten Papers auf der NeurlPS 2023 war. Bekannte Open-Source-Modelle wie Mixtral 8x7B wurden mithilfe von DPO optimiert. Zum Zeitpunkt des Verfassens dieses Blogs hat Meta auch ihre neuen Llama 3-Modelle veröffentlicht, die ebenfalls DPO für das Feintuning nutzen. Und eine Woche später hat Microsoft Phi-3 vorgestellt, das ebenfalls DPO für seine Optimierungsprozesse nutzt.

Computer Vision

Mehr anzeigen ->

Frühzeitige Klassifizierung von Anbauflächen anhand von Satellitenbild-Zeitreihen


Tiago Sanona


In einer schnelllebigen und sich ständig verändernden globalen Wirtschaft bietet die Möglichkeit, Erntefelder am Ende eines Wachstumszyklus per Fernerkundung zu klassifizieren, nicht den dringend benötigten unmittelbaren Einblick, den die Entscheidungsträger benötigen. Um dieses Problem zu lösen, haben wir ein Modell entwickelt, das eine kontinuierliche Klassifizierung von Anbaufeldern zu jedem beliebigen Zeitpunkt ermöglicht und die Vorhersagen verbessert, sobald mehr Daten zur Verfügung stehen. In der Praxis haben wir ein einziges Modell entwickelt, das in der Lage ist, auf der Grundlage von Satellitendaten Vorhersagen darüber zu treffen, welche Kulturen zu einem beliebigen Zeitpunkt im Anbau sind. Bei den Daten, die zum Zeitpunkt der Inferenz zur Verfügung stehen, kann es sich um einige wenige Bilder zu Beginn des Jahres oder um eine vollständige Zeitreihe von Bildern aus einer kompletten Wachstumsperiode handeln. Dies übersteigt die Möglichkeiten aktueller Deep-Learning -Lösungen, die entweder nur Vorhersagen am Ende der Vegetationsperiode bieten oder mehrere Modelle verwenden müssen, die auf Ergebnisse zu vorher festgelegten Zeitpunkten spezialisiert sind. Dieser Artikel beschreibt die wichtigsten Änderungen, die wir an dem Modell vorgenommen haben, das in einem früheren Blog-Beitrag " Classification of Crop fields through Satellite Image Time Series" beschrieben wurde. Die in diesem Artikel vorgestellten Ergebnisse beruhen auf einem kürzlich von der dida veröffentlichten Forschungspapier. Ausführlichere Informationen zu diesem Thema und weitere Experimente zu diesem Modell finden Sie im Originalmanuskript: "Early Crop Classification via Multi-Modal Satellite Data Fusion and Temporal Attention" .

Mit Machine Learning die Umwelt schützen


Edit Szügyi


Maschinelles Lernen löst schon seit Jahrzehnten komplexe Probleme. Man denke nur daran, wie Methoden des maschinellen Sehens lebensbedrohliche Krankheiten zuverlässig vorhersagen können, wie selbstfahrende Autos auf dem Weg sind, die Verkehrssicherheit zu revolutionieren, oder wie die automatische Übersetzung uns in die Lage versetzt, mit fast jedem Menschen auf der Welt zu sprechen. Die Möglichkeiten des maschinellen Lernens sind in vielen Bereichen der Industrie und Wissenschaft angekommen. Es gibt jedoch einige Bereiche, in denen das Potenzial des maschinellen Lernens schwerer zu erkennen ist und auch weniger genutzt wird. Einer dieser Bereiche ist der Umweltschutz. Der Schutz der Natur ist eine der größten Herausforderungen unserer Generation, die mit drängenden Problemen wie Klimawandel, Plastikverschmutzung oder Ressourcenverknappung konfrontiert ist. Sehen wir uns nun an, wie maschinelles Lernen als Werkzeug im Umweltschutz eingesetzt wurde und werden kann.

Einführungen

Mehr anzeigen ->

LLM-Strategien Teil 1: Möglichkeiten zur Implementierung von Sprachmodellen in Ihrer Organisation


David Berscheid


Große Sprachmodelle (eng.: Large Language Models, kurz: LLMs) sind aktuell ein viel diskutiertes Thema in Strategieabteilungen uns bekannter Organisationen. Dieser Artikel ist der erste von zwei Teilen, in denen einige Anhaltspunkte zur Identifizierung sinnvoller LLM-Strategien gegeben und Lösungsansätze zur Bewältigung damit verbundener Komplexitäten vorgestellt werden sollen. Weitere Inhalte über LLMs finden Sie in unserer LLM-Übersicht .

Wie ChatGPT mit Hilfe von Reinforcement Learning optimiert wird


Thanh Long Phan


Ende 2022 veröffentlichte OpenAI ChatGPT (ein auf Transformer basierendes Sprachmodell) für die Öffentlichkeit. Obwohl es auf dem bereits viel diskutierten GPT-3 basiert, löste es einen beispiellosen Boom in Sachen generativer KI aus. Es ist in der Lage, menschenähnlichen Text zu generieren, und bietet eine breite Palette von Anwendungen, darunter Sprachübersetzung, Sprachmodellierung und die Generierung von Text für Anwendungen wie Chatbots. Lesen Sie sich dazu gerne unsere Einführung zu LLMs durch. ChatGPT scheint so leistungsfähig zu sein, dass es von vielen als ein wesentlicher Schritt in Richtung künstliche allgemeine Intelligenz angesehen wird. Der Hauptgrund für die jüngsten Erfolge von Sprachmodellen wie ChatGPT liegt in ihrer Größe (gemessen an den trainierbaren Parametern). Doch indem man Sprachmodelle größer macht, werden sie nicht automatisch besser darin, die Absichten des Benutzers zu verfolgen. Ein größeres Modell kann auch toxischer werden und eher zu "Halluzinationen" neigen. Eine Möglichkeit, diese Probleme zu entschärfen und die Modelle allgemeiner an die Absichten der Benutzer anzupassen, ist die Anwendung von Reinforcement Learning. In diesem Blogbeitrag geben wir einen Überblick über den Trainingsprozess von ChatGPT und werfen einen genaueren Blick auf die Verwendung von Reinforcement Learning bei der Sprachmodellierung. Auch interessant: Unser aggregierte Sammlung an LLM Inhalten .


Gesetzgebung für KI – Was macht sie so schwierig? – Ein genauerer Blick auf den AI Act


Dr. Liel Glaser


Eine der größten Herausforderungen bei der Arbeit mit maschinellem Lernen und Künstlicher Intelligenz (KI) ist die Geschwindigkeit, mit der sich das Feld entwickelt. Täglich werden neue Artikel veröffentlicht und fast jede Woche entsteht ein neues Modell, das bestehende übertrifft. Es ist schwierig vorherzusagen, wo die nächste große Innovation entstehen wird und wie sie angewendet wird. Auch die EU stand bei der Ausarbeitung des AI Act vor dieser Herausforderung. Wie schreibt man ein nützliches Gesetz, das den Missbrauch von Technologien regelt, die noch gar nicht existieren? Um dies zu bewältigen, entschied sich die EU für eine umfassende Definition von KI, die sich auf eine technologieagnostische Beschreibung konzentriert. „KI-System“ bedeutet ein maschinenbasiertes System, das so konzipiert ist, dass es mit unterschiedlichen Autonomiestufen arbeitet und nach der Bereitstellung Anpassungsfähigkeit zeigen kann und das für explizite oder implizite Ziele aus den erhaltenen Eingaben ableitet, wie es Ausgaben wie Vorhersagen, Inhalte, Empfehlungen oder Entscheidungen generiert, die physische oder virtuelle Umgebungen beeinflussen können.“ (AI Act, Artikel 1, Absatz 1) In Teilen könnte dies auch auf Systeme angewendet werden, die bisher nicht als maschinelles Lernen oder KI betrachtet werden. Es sollte jedoch alle KI-Systeme abdecken. Eine breite Abdeckung ist in diesem Kontext wichtig, da KI bereits in vielen verschiedenen Bereichen eingesetzt wird. KI hat wahrscheinlich schon Auswirkungen auf alle europäischen Bürger und da wir den stochastischen Geist nicht wieder in die Flasche zurückbringen können, müssen wir Wege finden, unsere Wünsche sorgfältig zu bedenken. Haftungsausschluss: Dieser Artikel ist das Ergebnis eines tiefen Eintauchens eines ML-Wissenschaftlers in die EU-Regulierungen und versucht, diese zu interpretieren und zu verstehen. Er sollte nicht als rechtliche Beratung angesehen werden und alle Fehler gehen definitiv auf meine Kappe.

Fairness im Machine Learning


Cornelius Braun


In einem vorherigen Blog-Beitrag haben wir die Fülle menschlicher Vorurteile erläutert, die in realen Datensätzen oft vorhanden sind. Da Praktiker gezwungen sein können, mit verzerrten Daten zu arbeiten, ist es wichtig zu wissen, wie die Fairness von Modellentscheidungen dennoch gewährleistet werden kann. In diesem Beitrag erkläre ich daher die wichtigsten Ideen rund um Fairness beim maschinellen Lernen (ML). Dazu gehört eine kurze Zusammenfassung der wichtigsten Metriken zur Messung der Fairness Ihrer Modellentscheidungen und ein Überblick über Tools, die Ihnen helfen können, die Fairness Ihres Modells zu garantieren oder zu verbessern.

Natural Language Processing

Mehr anzeigen ->

LLM-Strategien Teil 1: Möglichkeiten zur Implementierung von Sprachmodellen in Ihrer Organisation


David Berscheid


Große Sprachmodelle (eng.: Large Language Models, kurz: LLMs) sind aktuell ein viel diskutiertes Thema in Strategieabteilungen uns bekannter Organisationen. Dieser Artikel ist der erste von zwei Teilen, in denen einige Anhaltspunkte zur Identifizierung sinnvoller LLM-Strategien gegeben und Lösungsansätze zur Bewältigung damit verbundener Komplexitäten vorgestellt werden sollen. Weitere Inhalte über LLMs finden Sie in unserer LLM-Übersicht .

Erweitere das Wissen deines LLMs mit RAG


Thanh Long Phan, Fabian Dechent


Large Language Models (LLMs) haben aufgrund ihrer bemerkenswerten, menschenähnlichen Fähigkeit, Texte zu verstehen und zu generieren, rasch an Popularität gewonnen. Trotz der großen Fortschritte gibt es auf dem Weg zu wirklich zuverlässigen Assistenten noch einige Herausforderungen zu bewältigen. LLMs sind dafür bekannt, dass sie Antworten erfinden und oft Texte produzieren, die dem erwarteten Antwortstil entsprechen, denen es aber an Genauigkeit oder sachlicher Grundlage fehlt. Die generierten Wörter und Phrasen werden so ausgewählt, dass sie mit hoher Wahrscheinlichkeit auf einen früheren Text folgen. Die Wahrscheinlichkeit wird so angepasst, dass sie dem Trainingskorpus so gut wie möglich entspricht. Dadurch besteht die Möglichkeit, dass eine Information veraltet ist, wenn der Korpus nicht aktualisiert und das Modell neu trainiert wird. Oder dass sie einfach sachlich falsch ist, während die generierten Wörter zwar richtig klingen und dem gewünschten Genre zugeordnet werden können. Das Kernproblem dabei ist, dass das LLM nicht weiß, was es nicht weiß. Und selbst wenn eine Information korrekt ist, ist es schwierig, ihre Quelle zu finden, um eine Überprüfung der Fakten zu ermöglichen. In diesem Artikel stellen wir RAG (Retrieval-Augmented Generation) als eine Methode vor, die beide Probleme angeht und die darauf abzielt, die Zuverlässigkeit und Genauigkeit der von LLMs generierten Informationen zu verbessern.


Informationsextraktion aus technischen Zeichnungen


Dr. Frank Weilandt


Mussten Sie schon einmal Daten über ein Objekt aus zwei verschiedenen Quellen kombinieren, zum Beispiel Bilder und Text? Bei unserer Arbeit bei dida stehen wir oft vor solchen Herausforderungen. Hier stellen wir ein Beispiel aus dem Bereich technischer Zeichnungen vor. Solche Zeichnungen werden in vielen Bereichen von Fachleuten verwendet, um Informationen auszutauschen. Sie bestehen aus Zeichnungen, die ganz bestimmten Richtlinien folgen, damit jeder Fachmann verstehen kann, was darauf abgebildet ist. Normalerweise liegen technische Zeichnungen in Formaten vor, die eine Indizierung ermöglichen, wie z. B. svg, html, dwg, dwf, usw., aber viele, vor allem ältere, existieren nur im Bildformat (jpeg, png, bmp, usw.), z. B. aus Buchscans. Auf diese Art von Zeichnungen kann man nur schwer automatisch zugreifen, was ihre Verwendung schwierig und zeitaufwändig macht. Hier könnten automatische Erkennungstools eingesetzt werden, um die Suche zu erleichtern. In diesem Blogpost zeigen wir, wie sowohl traditionelle als auch Deep-Learning-basierte Computer-Vision-Techniken für die Informationsextraktion aus Explosionszeichnungen eingesetzt werden können. Wir gehen davon aus, dass eine solche Zeichnung zusammen mit einigen textuellen Informationen für jedes Objekt auf der Zeichnung gegeben ist. Die Objekte können durch Nummern, die mit ihnen verbunden sind, identifiziert werden. Hier ist ein recht einfaches Beispiel für eine solche Zeichnung: Eine elektrische Bohrmaschine. Auf jeder Zeichnung gibt es drei Hauptkomponenten: Die Zahlen, die Objekte und die Hilfslinien. Die Hilfslinien werden verwendet, um die Objekte mit den Zahlen zu verbinden. Die vorliegende Aufgabe besteht darin, alle Objekte einer bestimmten Art / Klasse über eine große Anzahl von Zeichnungen zu finden , z. B. die Buchse mit der Nummer 653 im obigen Bild kommt in mehreren Zeichnungen und sogar in Zeichnungen anderer Hersteller vor. Dies ist eine typische Klassifizierungsaufgabe, allerdings mit einer Einschränkung: Da es zu jedem Objekt zusätzliche Informationen gibt, die über die Nummern zugänglich sind, müssen wir zunächst jede Nummer auf dem Bild dem entsprechenden Objekt zuordnen . Im Folgenden beschreiben wir, wie diese Zusatzaufgabe mit Hilfe traditioneller Computer-Vision-Techniken gelöst werden kann.

21 Fragen, die wir unseren Kunden stellen: Start eines erfolgreichen ML-Projekts


Emilius Richter


Die Automatisierung von Prozessen mithilfe von Machine Learning (ML) kann die Effizienz eines Systems über menschliche Kapazitäten hinaus steigern und wird daher in vielen Branchen immer beliebter. Doch zwischen einer Idee und einem gut definierten Projekt gibt es einige Punkte, die berücksichtigt werden müssen, um das wirtschaftliche Potenzial und die technische Komplexität des Projekts richtig einzuschätzen. Gerade für Unternehmen wie dida, die individuelle Workflow-Automatisierungssoftware anbieten, hilft ein gut vorbereitetes Projekt dabei, die Machbarkeit und die technische Gesamtkomplexität der Projektziele schnell einzuschätzen - was es wiederum ermöglicht, Software entwicklen, die den Anforderungen des Kunden gerecht wird. In diesem Artikel besprechen wir, welche Themen im Vorfeld berücksichtigt werden sollten und warum die Fragen, die wir stellen, wichtig sind, um ein erfolgreiches ML-Softwareprojekt zu starten.

Remote Sensing

Mehr anzeigen ->

Frühzeitige Klassifizierung von Anbauflächen anhand von Satellitenbild-Zeitreihen


Tiago Sanona


In einer schnelllebigen und sich ständig verändernden globalen Wirtschaft bietet die Möglichkeit, Erntefelder am Ende eines Wachstumszyklus per Fernerkundung zu klassifizieren, nicht den dringend benötigten unmittelbaren Einblick, den die Entscheidungsträger benötigen. Um dieses Problem zu lösen, haben wir ein Modell entwickelt, das eine kontinuierliche Klassifizierung von Anbaufeldern zu jedem beliebigen Zeitpunkt ermöglicht und die Vorhersagen verbessert, sobald mehr Daten zur Verfügung stehen. In der Praxis haben wir ein einziges Modell entwickelt, das in der Lage ist, auf der Grundlage von Satellitendaten Vorhersagen darüber zu treffen, welche Kulturen zu einem beliebigen Zeitpunkt im Anbau sind. Bei den Daten, die zum Zeitpunkt der Inferenz zur Verfügung stehen, kann es sich um einige wenige Bilder zu Beginn des Jahres oder um eine vollständige Zeitreihe von Bildern aus einer kompletten Wachstumsperiode handeln. Dies übersteigt die Möglichkeiten aktueller Deep-Learning -Lösungen, die entweder nur Vorhersagen am Ende der Vegetationsperiode bieten oder mehrere Modelle verwenden müssen, die auf Ergebnisse zu vorher festgelegten Zeitpunkten spezialisiert sind. Dieser Artikel beschreibt die wichtigsten Änderungen, die wir an dem Modell vorgenommen haben, das in einem früheren Blog-Beitrag " Classification of Crop fields through Satellite Image Time Series" beschrieben wurde. Die in diesem Artikel vorgestellten Ergebnisse beruhen auf einem kürzlich von der dida veröffentlichten Forschungspapier. Ausführlichere Informationen zu diesem Thema und weitere Experimente zu diesem Modell finden Sie im Originalmanuskript: "Early Crop Classification via Multi-Modal Satellite Data Fusion and Temporal Attention" .

Die besten (Python-)Tools für die Fernerkundung


Emilius Richter


Schätzungsweise 906 Erdbeobachtungssatelliten befinden sich derzeit im Erdorbit und stellen der Wissenschaft und Industrie täglich mehrere Terabyte an Daten zur Verfügung. Die Satelliten arbeiten sowohl mit Radar als auch optischen Sensoren und decken dabei verschiedene Spektralbereiche mit unterschiedlicher spektraler, räumlicher und zeitlicher Auflösung ab. Durch dieses breite Spektrum an geographischen Daten, ist es möglich, dass Fernerkundungsmethoden in vielen Industriebranchen und staatlichen Einrichtungen neue Anwendungsbereiche finden. Auf unserer Webseite finden Sie einige Projekte , in denen wir erfolgreich Satellitendaten eingesetzt haben, und mögliche Anwendungsfälle von Fernerkundungsmethoden für verschiedene Industrien . Bekannte Satellitensysteme und -programme sind z.B. Sentinel-1 (Radar) und Sentinel-2 (optisch) von der ESA, Landsat (optisch) von der NASA, TerraSAR-X und TanDEM-X (beide Radar) von der DLR und PlanetScope (optisch) von Planet. Es gibt im Wesentliche zwei Arten an geographischen Daten: Rasterdaten und Vektordaten . Rasterdaten Rasterdaten sind ein Gitter von regelmäßig angeordneten Pixeln, wobei jeder Pixel mit einem geographischen Standort verbunden ist, und werden als Matrix dargestellt. Die Pixelwerte hängen von der Art der Informationen ab, die gespeichert werden, z.B. Helligkeitswerte bei digitalen Bildern oder Temperaturwerte bei Wärmebildern. Die Größe der Pixel bestimmen außerdem die räumliche Auflösung des Rasters. Geographischen Rasterdaten werden also dazu verwendet, Satellitenbilder zu repräsentieren. Rasterbilder enthalten in der Regel mehrere Bänder bzw. Kanäle, z.B. einen roten, grünen und blauen Kanal. Bei Satellitendaten gibt es zudem oft infrarote und/oder ultraviolette Bänder. Vektordaten Vektordaten repräsentieren geographische Eigenschaften auf der Erdoberfläche, wie z.B. Städte, Ländergrenzen, Straßen, Gewässer, Besitzrechte etc.. Solche Eigenschaften werden durch ein oder mehrere miteinander verbundene Vertices repräsentiert, wobei ein Vertex durch x-, y- und z-Werte eine Position im Raum festlegt. Ein einzelner Vertex ist ein Punkt, mehrere verbundene Vertices sind eine Linie und mehrere (>3) verbundene und geschlossene Vertices werden als Polygon bezeichnet. Die x-, y- und z-Werte sind dabei immer auf das entsprechende Koordinatenreferenzsystem (CRS) bezogen, das in Vektordateien als Metainformation gespeichert ist. Die gebräuchlichsten Dateiformate für Vektordaten sind GeoJSON, KML und SHAPEFILE. Um diese Daten prozessieren und analysieren zu können, werden verschiedene Tools benötigt. Im Folgenden stelle ich die Tools vor, mit denen wir bei dida die besten Erfahrungen gemacht haben und die in unseren Fernerkundungsprojekten regelmäßig zum Einsatz kommen. Ich stelle ein Tool nach dem anderen vor, in folgende Kategorien gruppiert: Abrufen von Satellitendaten EOBrowser Sentinelsat Sentinelhub Verarbeitung von Rasterdaten Rasterio Pyproj SNAP (new) pyroSAR Rioxarray (new) Verarbeitung von Vektordaten Shapely Python-geojson Geojson.io Geopandas Fiona Bereitstellung geographischer Daten QGIS GeoServer Leafmap (new) Verarbeitung meteorologischer Satellitendaten Wetterdienst Wradlib

Software Development

Mehr anzeigen ->

Mehrschichtige Requirements mit pip-tools verwalten


Dr. Augusto Stoffel


Bei der Erstellung von Python-Anwendungen für die Produktion ist es eine gute Praxis, alle Abhängigkeitsversionen zu fixieren, ein Prozess, der auch als "Einfrieren der Requirements" bekannt ist. Dies macht die Deployments reproduzierbar und vorhersehbar. (Bei Bibliotheken und Benutzeranwendungen sind die Anforderungen ganz anders; in diesem Fall sollte man eine große Bandbreite an Versionen für jede Abhängigkeit unterstützen, um das Konfliktpotenzial zu verringern.) In diesem Beitrag erklären wir, wie man ein mehrschichtiges Requirements-Setup verwaltet, ohne auf den verbesserten Konfliktlösungsalgorithmus zu verzichten, der kürzlich in pip eingeführt wurde. Wir stellen ein Makefile zur Verfügung, das Sie sofort in jedem Ihrer Projekte verwenden können!

Der Projektantrag - der erste Schritt zu einem erfolgreichen ML-Projekt


Emilius Richter


Viele Machine-Learning-Projekte (ML) sind zum Scheitern verurteilt. Dies kann verschiedene Gründe haben, die oft in Kombination auftreten. Um ein Scheitern zu vermeiden, müssen alle beteiligten Akteure die technischen und organisatorischen Anforderungen des Projekts verstehen. Neben allen Vorgesprächen, die das Projekt definieren, ist es wichtig, die projektrelevanten Informationen in einem umfassenden Projektantrag zusammenzufassen. Dieser sollte die technischen und organisatorischen Anforderungen, mögliche Problembereiche und technische Beschränkungen umfassen. In diesem Artikel beschreibe ich die wichtigsten Module eines Machine-Learning-Projektantrags. Für einen Softwareanbieter wie dida ist der Projektantrag der erste Schritt, um den Anforderungen des Kunden gerecht zu werden.

Talks & Events

Mehr anzeigen ->


Theorie & Algorithmen

Mehr anzeigen ->

Deep Learning vs. Maschinelles Lernen: Was ist der Unterschied? | dida blog


Serdar Palaoglu


Im Bereich der künstlichen Intelligenz sind zwei grundlegende Konzepte, Maschinelles Lernen und Deep Learning, als Schlüsselkomponenten für die Weiterentwicklung computerbasierter Lernsysteme hervorgetreten. Maschinelles Lernen dient als grundlegendes Prinzip, bei dem Computer die Fähigkeit erlangen, aus Daten zu lernen, ohne explizit programmiert zu sein. Deep Learning, nutzt künstliche neuronale Netzwerke, die vom menschlichen Gehirn inspiriert sind, um komplexe Datenanalysen durchzuführen. Dieser Artikel geht auf eine umfassende Erforschung dieser Bereiche ein, beleuchtet ihre Unterschiede, praktischen Anwendungen und Bedeutung im Bereich der künstlichen Intelligenz.

Wie ChatGPT mit Hilfe von Reinforcement Learning optimiert wird


Thanh Long Phan


Ende 2022 veröffentlichte OpenAI ChatGPT (ein auf Transformer basierendes Sprachmodell) für die Öffentlichkeit. Obwohl es auf dem bereits viel diskutierten GPT-3 basiert, löste es einen beispiellosen Boom in Sachen generativer KI aus. Es ist in der Lage, menschenähnlichen Text zu generieren, und bietet eine breite Palette von Anwendungen, darunter Sprachübersetzung, Sprachmodellierung und die Generierung von Text für Anwendungen wie Chatbots. Lesen Sie sich dazu gerne unsere Einführung zu LLMs durch. ChatGPT scheint so leistungsfähig zu sein, dass es von vielen als ein wesentlicher Schritt in Richtung künstliche allgemeine Intelligenz angesehen wird. Der Hauptgrund für die jüngsten Erfolge von Sprachmodellen wie ChatGPT liegt in ihrer Größe (gemessen an den trainierbaren Parametern). Doch indem man Sprachmodelle größer macht, werden sie nicht automatisch besser darin, die Absichten des Benutzers zu verfolgen. Ein größeres Modell kann auch toxischer werden und eher zu "Halluzinationen" neigen. Eine Möglichkeit, diese Probleme zu entschärfen und die Modelle allgemeiner an die Absichten der Benutzer anzupassen, ist die Anwendung von Reinforcement Learning. In diesem Blogbeitrag geben wir einen Überblick über den Trainingsprozess von ChatGPT und werfen einen genaueren Blick auf die Verwendung von Reinforcement Learning bei der Sprachmodellierung. Auch interessant: Unser aggregierte Sammlung an LLM Inhalten .


Mehrschichtige Requirements mit pip-tools verwalten


Dr. Augusto Stoffel


Bei der Erstellung von Python-Anwendungen für die Produktion ist es eine gute Praxis, alle Abhängigkeitsversionen zu fixieren, ein Prozess, der auch als "Einfrieren der Requirements" bekannt ist. Dies macht die Deployments reproduzierbar und vorhersehbar. (Bei Bibliotheken und Benutzeranwendungen sind die Anforderungen ganz anders; in diesem Fall sollte man eine große Bandbreite an Versionen für jede Abhängigkeit unterstützen, um das Konfliktpotenzial zu verringern.) In diesem Beitrag erklären wir, wie man ein mehrschichtiges Requirements-Setup verwaltet, ohne auf den verbesserten Konfliktlösungsalgorithmus zu verzichten, der kürzlich in pip eingeführt wurde. Wir stellen ein Makefile zur Verfügung, das Sie sofort in jedem Ihrer Projekte verwenden können!

Die besten (Python-)Tools für die Fernerkundung


Emilius Richter


Schätzungsweise 906 Erdbeobachtungssatelliten befinden sich derzeit im Erdorbit und stellen der Wissenschaft und Industrie täglich mehrere Terabyte an Daten zur Verfügung. Die Satelliten arbeiten sowohl mit Radar als auch optischen Sensoren und decken dabei verschiedene Spektralbereiche mit unterschiedlicher spektraler, räumlicher und zeitlicher Auflösung ab. Durch dieses breite Spektrum an geographischen Daten, ist es möglich, dass Fernerkundungsmethoden in vielen Industriebranchen und staatlichen Einrichtungen neue Anwendungsbereiche finden. Auf unserer Webseite finden Sie einige Projekte , in denen wir erfolgreich Satellitendaten eingesetzt haben, und mögliche Anwendungsfälle von Fernerkundungsmethoden für verschiedene Industrien . Bekannte Satellitensysteme und -programme sind z.B. Sentinel-1 (Radar) und Sentinel-2 (optisch) von der ESA, Landsat (optisch) von der NASA, TerraSAR-X und TanDEM-X (beide Radar) von der DLR und PlanetScope (optisch) von Planet. Es gibt im Wesentliche zwei Arten an geographischen Daten: Rasterdaten und Vektordaten . Rasterdaten Rasterdaten sind ein Gitter von regelmäßig angeordneten Pixeln, wobei jeder Pixel mit einem geographischen Standort verbunden ist, und werden als Matrix dargestellt. Die Pixelwerte hängen von der Art der Informationen ab, die gespeichert werden, z.B. Helligkeitswerte bei digitalen Bildern oder Temperaturwerte bei Wärmebildern. Die Größe der Pixel bestimmen außerdem die räumliche Auflösung des Rasters. Geographischen Rasterdaten werden also dazu verwendet, Satellitenbilder zu repräsentieren. Rasterbilder enthalten in der Regel mehrere Bänder bzw. Kanäle, z.B. einen roten, grünen und blauen Kanal. Bei Satellitendaten gibt es zudem oft infrarote und/oder ultraviolette Bänder. Vektordaten Vektordaten repräsentieren geographische Eigenschaften auf der Erdoberfläche, wie z.B. Städte, Ländergrenzen, Straßen, Gewässer, Besitzrechte etc.. Solche Eigenschaften werden durch ein oder mehrere miteinander verbundene Vertices repräsentiert, wobei ein Vertex durch x-, y- und z-Werte eine Position im Raum festlegt. Ein einzelner Vertex ist ein Punkt, mehrere verbundene Vertices sind eine Linie und mehrere (>3) verbundene und geschlossene Vertices werden als Polygon bezeichnet. Die x-, y- und z-Werte sind dabei immer auf das entsprechende Koordinatenreferenzsystem (CRS) bezogen, das in Vektordateien als Metainformation gespeichert ist. Die gebräuchlichsten Dateiformate für Vektordaten sind GeoJSON, KML und SHAPEFILE. Um diese Daten prozessieren und analysieren zu können, werden verschiedene Tools benötigt. Im Folgenden stelle ich die Tools vor, mit denen wir bei dida die besten Erfahrungen gemacht haben und die in unseren Fernerkundungsprojekten regelmäßig zum Einsatz kommen. Ich stelle ein Tool nach dem anderen vor, in folgende Kategorien gruppiert: Abrufen von Satellitendaten EOBrowser Sentinelsat Sentinelhub Verarbeitung von Rasterdaten Rasterio Pyproj SNAP (new) pyroSAR Rioxarray (new) Verarbeitung von Vektordaten Shapely Python-geojson Geojson.io Geopandas Fiona Bereitstellung geographischer Daten QGIS GeoServer Leafmap (new) Verarbeitung meteorologischer Satellitendaten Wetterdienst Wradlib